The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
translated by 谷歌翻译
Open Information Extraction (OIE) methods extract a large number of OIE triples (noun phrase, relation phrase, noun phrase) from text, which compose large Open Knowledge Bases (OKBs). However, noun phrases (NPs) and relation phrases (RPs) in OKBs are not canonicalized and often appear in different paraphrased textual variants, which leads to redundant and ambiguous facts. To address this problem, there are two related tasks: OKB canonicalization (i.e., convert NPs and RPs to canonicalized form) and OKB linking (i.e., link NPs and RPs with their corresponding entities and relations in a curated Knowledge Base (e.g., DBPedia). These two tasks are tightly coupled, and one task can benefit significantly from the other. However, they have been studied in isolation so far. In this paper, we explore the task of joint OKB canonicalization and linking for the first time, and propose a novel framework JOCL based on factor graph model to make them reinforce each other. JOCL is flexible enough to combine different signals from both tasks, and able to extend to fit any new signals. A thorough experimental study over two large scale OIE triple data sets shows that our framework outperforms all the baseline methods for the task of OKB canonicalization (OKB linking) in terms of average F1 (accuracy).
translated by 谷歌翻译
初始化时(OPAI)的一次性网络修剪是降低网络修剪成本的有效方法。最近,人们越来越相信数据在OPAI中是不必要的。但是,我们通过两种代表性的OPAI方法,即剪切和掌握的消融实验获得了相反的结论。具体而言,我们发现信息数据对于增强修剪性能至关重要。在本文中,我们提出了两种新颖的方法,即判别性的单发网络修剪(DOP)和超级缝制,以通过高级视觉判别图像贴片来修剪网络。我们的贡献如下。(1)广泛的实验表明OPAI是数据依赖性的。(2)超级缝线的性能明显优于基准图像网上的原始OPAI方法,尤其是在高度压缩的模型中。
translated by 谷歌翻译
地下模拟使用计算模型来预测流体(例如油,水,气体)通过多孔介质的流动。这些模拟在工业应用(例如石油生产)中至关重要,在这些应用中,需要快速,准确的模型来进行高级决策,例如,进行井安置优化和现场开发计划。经典的有限差数数值模拟器需要大量的计算资源来对大规模现实世界的水库进行建模。另外,通过依靠近似物理模型,流线模拟器和数据驱动的替代模型在计算上更有效,但是它们不足以在大规模上对复杂的储层动力学进行建模。在这里,我们介绍了混合图网络模拟器(HGNS),这是一个数据驱动的替代模型,用于学习3D地下流体流的储层模拟。为了模拟局部和全球尺度上的复杂储层动力学,HGN由地下图神经网络(SGNN)组成,以建模流体流的演化和3D-U-NET,以建模压力的演变。 HGNS能够扩展到每个时间步长数百万个单元的网格,比以前的替代模型高两个数量级,并且可以准确地预测流体流量数十亿个时间步长(未来几年)。使用带有110万个单元的行业标准地下流数据集(SPE-10),我们证明HGNS能够将推理时间降低到与标准地下模拟器相比,最高18次,并且通过降低基于学习的模型,它可以优于其他基于学习的模型长期预测错误高达21%。
translated by 谷歌翻译
一个良好的动作效果预测模型,称为环境模型,对于在机器人控制,推荐系统和患者治疗选择等许多领域中实现样本有效的决策政策学习非常重要。我们可以使用这种模型进行无限的试验来确定适当的行动,以便可以节省现实世界中的查询成本。它要求模型正确处理看不见的数据,也称为反事实数据。但是,标准数据拟合技术不会自动实现这种概括能力,通常会导致不可靠的模型。在这项工作中,我们在模型学习中引入了反事实风险最小化(CQRM),以推广到特定目标策略查询的反事实数据集。由于目标策略在政策学习中可能是各种各样且未知的,因此我们提出了一个对抗性CQRM目标,其中模型在对抗性策略查询的反事实数据上学习,并最终得出可拖延的解决方案Galileo。我们还发现,对抗性CQRM与对抗模型学习密切相关,从而解释了后者的有效性。我们将伽利略应用于综合任务和现实应用程序中。结果表明,伽利略对反事实数据做出了准确的预测,从而显着改善了现实世界测试的策略。
translated by 谷歌翻译
本文介绍了一个新颖的神经网络 - 流程完成网络(FCN) - 以从基于图形卷积注意网络的不完整数据中推断出流体动力学,包括流场和作用于身体的力。 FCN由几个图卷积层和空间注意层组成。它旨在推断与涡流力图(VFM)方法结合使用时流场的速度场和涡流力的贡献。与流体动力学中采用的其他神经网络相比,FCN能够处理两个结构化数据和非结构化数据。拟议的FCN的性能通过圆柱周围流场的计算流体动力学(CFD)数据进行评估。我们的模型预测的力系数对直接从CFD获得的工具进行了估算。此外,结果表明,我们的模型同时使用存在的流场信息和梯度信息,比传统的基于基于的基于传统的神经网络(CNN)和深神经网络(DNN)模型更有性能。具体而言,在不同雷诺数数字和培训数据集的不同比例的所有第三酶中,结果表明,在测试数据集中,提议的FCN在测试数据集中达到了5.86%的最大规范均值误差,该误差远低于基于Thetradientional CNN的和TheTraDientional CNN的最大正方形误差基于DNN的模型(分别为42.32%和15.63%)。
translated by 谷歌翻译
安装在机器人上的光学扫描仪通常用于质量检查,例如验证片状结构的尺寸规格。覆盖路径规划(CPP)显着影响机器人质量检验的准确性和效率。传统的CPP战略专注于最小化机器人的观点次数或在完全覆盖检查的条件下。在自由形状表面检查中较少考虑收集扫描数据时的测量不确定度。为了解决这个问题,提出了一种具有最佳观点采样策略的新型CPP方法,以将键测量点(MPS)的测量不确定性纳入自由形状表面检查。首先,基于MP的公差规范计算可行的测量不确定性范围。考虑测量不确定度和MPS的可见性,生成初始可行性视点集。然后,构建检查成本函数以评估所选视点的视野(FOV)的选定视点的数量和平均测量不确定性。之后,提出了一种增强的快速探索随机树(RRT *)算法,用于使用检查成本函数和CPP优化的观点采样。已经进行了案例研究,包括模拟试验和检查实验,以评估所提出的方法的有效性。结果表明,与基准法相比,关键MPS的扫描精度显着提高。
translated by 谷歌翻译
光保护综合技术的快速进展达到了真实和操纵图像之间的边界开始模糊的临界点。最近,一个由Mega-Scale Deep Face Forgery DataSet,由290万个图像组成和221,247个视频的伪造网络已被释放。它是迄今为止的数据规模,操纵(7个图像级别方法,8个视频级别方法),扰动(36个独立和更混合的扰动)和注释(630万个分类标签,290万操纵区域注释和221,247个时间伪造段标签)。本文报告了Forgerynet-Face Forgery Analysis挑战2021的方法和结果,它采用了伪造的基准。模型评估在私人测试集上执行离线。共有186名参加比赛的参与者,11名队伍提交了有效的提交。我们将分析排名排名的解决方案,并展示一些关于未来工作方向的讨论。
translated by 谷歌翻译
通常假设基于深神经网络的分类器的培训和测试数据是从相同的分布采样的。当从远离训练样品的分布中抽出部分测试样品时(AKA分配(OOD)样本),培训的神经网络具有对这些ood的高信任预测的趋势样品。当培训用于图像分类的神经网络,对象检测等的神经网络时,检测是至关重要的。它可以提高分类器对无关投入的鲁棒性,并在不同形式的攻击下提高系统恢复力和安全性。检测OOD样品有三个主要挑战:(i)建议的OOD检测方法应与各种分类器的各种架构(例如,DENSENET,RESET)兼容,而不会显着提高模型复杂性和对计算资源的要求; (ii)ood样本可能来自多个分布,其类标签通常不可用; (iii)需要定义得分函数以有效地分离来自分布(IND)样本的OOD样本。为了克服这些挑战,我们提出了一种基于Wasserstein的分布式检测(木材)方法。基本思想是定义基于Wassersein-距离的评分,评估测试样品与IND样品的分布之间的异化。然后基于所提出的得分函数制定和解决优化问题。研究了所提出的方法的统计学习,以保证经验优化器实现的损耗值近似于全局最优。比较研究结果表明,所提出的木材始终如一地优于其他现有的ood检测方法。
translated by 谷歌翻译
过去几年的技术创新的巨大浪潮,标志着AI技术的进展,是深刻的重塑行业和社会。然而,在路上,一个关键的挑战等待着我们,即我们满足快速增长的情景的能力的能力受到收购培训数据的成本的严重限制。由于主流学习范式的局限性,这一困难的局面是基于主流学习范式的局限性:我们需要根据大量注释的数据以及通常从头来训练每个新场景的新模型。在解决这一基本问题时,我们超越并开发一个名为实习生的新学习范式。通过在多个阶段的来自多个来源的监控信号学习,培训的模型将产生强大的相互性。我们在26个众所周知的数据集中评估我们的模型,该数据集涵盖计算机视觉中的四类任务。在大多数情况下,我们的模型仅适用于目标域中的培训数据的10%,始终以完整的数据培训的对应物,通常由显着的边距。这是一个重要前景的重要一步,其中具有一般视觉能力的这种模型可以大大降低对数据的依赖,从而加速通过AI技术的采用。此外,围绕我们的新范式旋转,我们还介绍了一个新的数据系统,新的架构和新的基准,以及一起形成一般愿景生态系统,以开放和包容性的方式支持其未来的发展。
translated by 谷歌翻译